% !TeX program = xelatex

%----------------------------------------------------------------------------------------
%	PACKAGES AND THEMES
%----------------------------------------------------------------------------------------
\documentclass[aspectratio=169,xcolor=dvipsnames]{beamer}
\usetheme{SimplePlus}

\usepackage{ctex} % Allows using Chinese
\usepackage{hyperref}
\usepackage{graphicx} % Allows including images
\usepackage{booktabs} % Allows the use of \toprule, \midrule and \bottomrule in tables
\usepackage{comment}
\usepackage{ulem}

%----------------------------------------------------------------------------------------
%	TITLE PAGE
%----------------------------------------------------------------------------------------

\title[short title]{少样本的修辞结构分析} % The short title appears at the bottom of every slide, the full title is only on the title page
\subtitle{}

\author[Nan-Yu] {姓名：余南 \\ 导师: 付国宏}

\institute[SU] % Your institution as it will appear on the bottom of every slide, may be shorthand to save space
{
    %Department of Computer Science and Information Engineering \\
    %National Taiwan University % Your institution for the title page
}
\date{} % Date, can be changed to a custom date


%----------------------------------------------------------------------------------------
%	PRESENTATION SLIDES
%----------------------------------------------------------------------------------------

\begin{document}

\begin{frame}
    % Print the title page as the first slide
    \titlepage
\end{frame}

\begin{frame}{目录}
    % Throughout your presentation, if you choose to use \section{} and \subsection{} commands, these will automatically be printed on this slide as an overview of your presentation
    \tableofcontents
\end{frame}

%------------------------------------------------
\section{研究背景}
%------------------------------------------------

\begin{frame}{研究背景-任务定义}
    \begin{columns}[t] % The "c" option specifies centered vertical alignment while the "t" option is used for top vertical alignment
        \column{.5\textwidth} % Left column and width
        \textbf{任务定义:}

        修辞结构分析(RST分析)是一种篇章分析任务。
        目的是为了分析篇章中两个文本单元之间的连贯性关系，用基于修辞结构理论的树（RST树）来表示整个篇章。

        \textbf{RST树:}
        \begin{itemize}
        \item 叶子结点是它的基本单位，通常为句子或者子句，被称为EDU。
        \item 树的非叶结点用于描述相邻两个结点之间的篇章现象。
        \end{itemize}

        \textbf{任务形式:}

        RST分析分三个子任务：成分树构建，核心性分类，篇章关系分类。

        \textbf{经典算法:}

        自下而上或者自上而下的树构建算法。

        \column{.5\textwidth} % Left column and width
        \textbf{RST树的例子:}

        图中上半部分为RST树，下半部分为篇章。
        
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=1.0\linewidth]{pic/dt_crop.pdf}
            % figure caption is below the figure
        \end{figure}

    \end{columns}
\end{frame}

\begin{comment}
\begin{frame}{研究背景}
    \begin{columns}[c] % The "c" option specifies centered vertical alignment while the "t" option is used for top vertical alignment
        \column{1\textwidth} % Left column and width
        \textbf{标注风格}
        \begin{enumerate}
            \item RST~\cite{mann_rhetorical_1988}，以语义和意图混合驱动
            \item PDTB~\cite{prasad_penn_2008}，以连词驱动
            \item SDRT~\cite{asher_logics_2003}，以语义驱动
        \end{enumerate}

        \textbf{标注数据}
        \begin{enumerate}
            \item RST-DT~\cite{carlson_building_2001},GUM~\cite{zeldes_gum_2017}
            \item PDTB2.0~\cite{prasad_penn_2008}
            \item STAC~\cite{asher_discourse_2016},Molweni~\cite{li_molweni_2020}
        \end{enumerate}
    \end{columns}

    以这些标注数据为基础，大量研究者关注于篇章分析建模算法研究。目前主要的研究多关注于RST风格的篇章分析。
\end{frame}
\end{comment}

\begin{frame}{任务背景-面临挑战}
\begin{columns}[t] % The "c" option specifies centered vertical alignment while the "t" option is used for top vertical alignment
    \column{0.5\textwidth} % Left column and width
    \textbf{任务背景：}

    RST是广泛使用的篇章标注规范之一, 研究者们根据它在不同的语种和不同体裁的篇章上构建了许多语料，但这些标注规模都偏小。
    后继的研究者们主要在英语新闻上构建的RST-DT上进行训练和评测。

\begin{table}
\footnotesize
    \begin{tabular}{c|c|c}
    \hline
        树库 & 体裁 & 篇章数量\\
    \hline
        deu.pcc & 新闻 & 175 \\
        \color{red} eng.rstdt & 新闻 & 385 \\
        eus.ert &医学、科学 & 88 \\
        nld.nldt & 百科全书、信件、新闻 & 80 \\
        por.cstn & 新闻 & 330\\
        eng.gum & 学术、传记、谈话、小说等 & 300 \\
        zho.gcdt & 学术、传记、谈话、小说等 & 50\\
    \hline
    \end{tabular}
\end{table}
    
    \column{0.5\textwidth} % Left column and width
    \textbf{面临挑战:}

    RST分析所面临的主要的挑战之一是用于训练的标注数据短缺，特别是在一些小语种或其他体裁中，RST标注数据更稀缺。

    \textbf{主要原因:}
    \begin{itemize}
        \item RST树的人工标注是劳动密集性的。
        \item 标注者需要具备专业的语言学知识。
    \end{itemize}
\end{columns}
\end{frame}

\begin{comment}
%------------------------------------------------
\section{现有研究}
%------------------------------------------------
\begin{frame}{现有研究}
    \textbf{低资源篇章分析的探索角度}
    \begin{itemize}
        \item 无监督学习~\cite{kobayashi_split_2019,huber_unsupervised_2020}
        \item 远程监督学习~\cite{huber_mega_2020,huber_predicting_2019}
        \item 半监督学习~\cite{kobayashi_improving_2021}
        \item 迁移学习
            \begin{itemize}
            \item 多语~\cite{braud_cross-lingual_2017,liu_multilingual_2020}
            \item 多体裁~\cite{liu_whats_2023,liu_why_2023}
            \item 异构~\cite{braud_multi-view_2016,liu_implicit_2016}
            \end{itemize}
    \end{itemize}
\end{frame}
\end{comment}

%------------------------------------------------
\section{研究内容}
%------------------------------------------------
\begin{frame}{研究内容}
\begin{columns}[t] 
    \column{0.5\textwidth}
    \textbf{研究角度:}
    将以下两个角度来展开研究少样本的RST分析研究：
    \begin{itemize}
        \item 数据角度
            \begin{itemize}
                \item 基于预训练的RST分析
                \item 基于数据增广的RST分析
            \end{itemize}
        \item 模型角度
            \begin{itemize}
                \item 基于适配器融合的RST分析
            \end{itemize}
    \end{itemize}

    \column{0.5\textwidth}
    \textbf{少样本RST分析器:}
    \begin{itemize}
        \item 更好的EDU向量表示
        \item 被更多的RST树训练
        \item 更强的鲁棒性
    \end{itemize}

\end{columns}
\end{frame}

\begin{frame}{研究内容-概览}
    \begin{figure}[t]
        \centering
        % Use the relevant command to insert your figure file.
        % For example, with the graphicx package use
        \includegraphics[width=1\linewidth]{pic/framework.pdf}
        % figure caption is below the figure
    \end{figure}
\end{frame}

\begin{frame}{研究内容1-基于多阶段继续预训练的RST分析}
    \textbf{动机：} 
    利用目标领域的无标注数据继续预训练PLM。
    \begin{itemize}
        \item 目标领域的文本会包含一些专业术语，它们可能并未登陆原有的PLM词表中。
        \item 预训练语言模型句子级的语言建模方式和RST分析的基本单位不一致问题。
    \end{itemize}

    \textbf{贡献：}
    \begin{itemize}
        \item 第一阶段，利用对应领域的文本来扩充PLM的词表，并用PLM原有目标函数继续预训练，缓解未登录词问题。 (计划)
        \item 第二阶段，提出一些适配RST分析的EDU级别的预训练任务，让PLM在这些任务上学习来获得更好EDU表示，缓解基本单位不一致问题。(基本完成)
    \end{itemize}
\end{frame}

\begin{frame}{研究内容1-基于多阶段继续预训练的RST分析}
    \begin{columns}[t] 
        \column{0.5\textwidth}
        \textbf{两个EDU级别预训练任务：}

        预测EDU之间连续。
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=.5\linewidth]{pic/NEP_crop.pdf}
            % figure caption is below the figure
        \end{figure}
        屏蔽并预测EDU之间的连词。
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=.44\linewidth]{pic/DMP_crop.pdf}
            % figure caption is below the figure
        \end{figure}
        \column{0.5\textwidth}
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=0.9\linewidth]{pic/edu_result.jpg}
            % figure caption is below the figure
        \end{figure}

    \end{columns}
\end{frame}

\begin{frame}{研究内容2-基于数据增广的RST分析}
    \textbf{动机：} 
    利用以下两种标注数据，使用数据增广方法来产生更多的RST树。
    \begin{itemize}
        \item RST树的叶节点的文本内容相对独立，可以进行灵活地替换来产生更多的RST树标注。
        \item 在PDTB和RST中有一些篇章现象有类似的标注，比如RST中的\textit{elaboration}和PDTB中的\textit{expansion}。PDTB篇章标注是一种潜在可以用于产生RST树的信息。
    \end{itemize}

    \textbf{贡献：}
    \begin{itemize}
        \item 基于提示微调的RST数据增广方法。用RST原有标注数据制作指令微调数据微调LLM，让它按照原定的篇章关系还原被屏蔽掉的叶节点文本。还原出的数据作为额外训练语料。(计划)
        \item 基于PDTB-RST标注映射的RST数据增广的方法。RST-DT和PDTB2.0在有部分标注重合，用这些数据训练一个从PDTB到RST的映射模型。用它将PDTB标注转化成RST标注。(部分)
    \end{itemize}
\end{frame}

\begin{frame}{研究内容2-基于数据增广的RST分析}
    \begin{columns}[t] 
        \column{0.5\textwidth}

        \textbf{初步验证PDTB标注对RST分析有效的实验：}
            \begin{itemize}
                \item CT:基于规则的PDTB-RST标注映射，产生额外RST树标注
                \item \sout{SL：堆学习,PDTB指导RST}
            \end{itemize}

        \column{0.5\textwidth}
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=0.9\linewidth]{pic/CT+SL.jpg}
            % figure caption is below the figure
        \end{figure}
    
    \end{columns}

\end{frame}

\begin{frame}{研究内容3-基于适配器融合的RST分析}
    \textbf{动机：}
    \begin{itemize}
        \item 使用多语、多体裁的RST数据进行训练时可能造成灾难性遗忘的问题。
        \item 多阶段预训练和数据增广该任务上并不冲突，但按次序使用它们可能会造成灾难性遗忘问题。
    \end{itemize}

    \textbf{贡献：}
    \begin{itemize}
        \item 基于多源适配器融合的方法。分别在不同语种，不同体裁的RST标注数据上训练对应的适配器，再进行融合，提高它在未知领域的鲁棒性。(计划)
        \item 基于策略适配器融合的方法。为以上预训练策略、数据增广策略分别训练适配器，缓解使用这些策略的灾难性遗忘问题。(部分)
    \end{itemize}
\end{frame}

\begin{frame}{研究内容3-基于适配器融合的RST分析}
    \begin{columns}[t] 
        \column{0.5\textwidth}
        \textbf{初步验证适配器融合框架的有效性：}
            
        为不同篇章分析任务训练了适配器，通过注意力机制将权重分给不同的适配器进行融合。

        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=1.\linewidth]{pic/adapter_fusion-crop.pdf}
            % figure caption is below the figure
        \end{figure}
        \column{0.5\textwidth}
        \begin{figure}[t]
            \centering
            % Use the relevant command to insert your figure file.
            % For example, with the graphicx package use
            \includegraphics[width=1.\linewidth]{pic/f-result.jpg}
            % figure caption is below the figure
        \end{figure}

    \end{columns}
\end{frame}

\section{总结和展望}
\begin{frame}{总结和展望}
    \begin{figure}[t]
        \centering
        % Use the relevant command to insert your figure file.
        % For example, with the graphicx package use
        \includegraphics[width=1\linewidth]{pic/pro.pdf}
        % figure caption is below the figure
    \end{figure}
\end{frame}

\section{研究成果}
\begin{frame}{研究成果}
    \begin{itemize}
        \item Yu et al. RST Discourse Parsing with Second-Stage EDU-Level Pre-training. ACL22. 
        \item Yu et al. Speaker-Aware Discourse Parsing on Multi-Party Dialogues. COLING22. 
    \end{itemize}
\end{frame}

%------------------------------------------------
\begin{frame}[allowframebreaks]{参考文献}
    \tiny % 调整文献字体大小
    \bibliographystyle{alpha}
    \bibliography{ref}
\end{frame}
%----------------------------------------------------------------------------------------
\end{document}